generaliability theory

一、G 研究（G-Study）中計算的指標與意義

G 研究的目的，是盡可能完整地定義測量所欲推論的母群，也就是「可允許觀察母群」（universe of admissible observations），並估計不同潛在誤差來源對觀察分數的影響。在此階段，研究者關心的是：觀察分數中的變異，分別來自測量對象本身，以及來自哪些測量層面（facets）或交互作用。

G 研究主要計算的指標包括變異數成分與各變異數成分佔總變異的百分比。

變異數成分（Variance Components，通常記為 $σ^{2}$ ）

變異數成分是 G 研究中最核心的估計結果。研究者會透過變異數分析（ANOVA）、限制最大概似法（restricted maximum likelihood, REML）或其他估計方法，將觀察分數的總變異拆解為多個來源。

這些來源通常包括：

測量對象的變異，例如受試者之間的差異，通常可視為母群分數變異；
各個測量層面（facets）的主效應變異，例如評分者、題目、測量時間等；
測量對象與各層面之間的交互作用變異；
不同層面彼此之間的交互作用變異；
無法進一步分離的殘差變異。

變異數成分的意義在於，它能指出觀察分數中各種變異來源的絕對大小。例如，若評分者的變異數成分很大，表示不同評分者給分標準可能不一致；若受試者與題目的交互作用變異很大，則表示不同受試者在不同題目上的表現模式不穩定。

因此，G 研究的功能主要是「診斷測量誤差來源」，幫助研究者了解測量結果受到哪些因素影響，以及哪些環節可能需要進一步改善。

佔總變異的百分比（Percentage of Total Variance）

由於變異數成分本身是以原始分數單位的平方表示，數值大小不一定容易直接解釋，因此通常會進一步計算各變異數成分佔總變異的百分比。

其基本計算方式為：

將某一變異數成分除以所有變異數成分的總和，再轉換為百分比。

也就是：

$Percentage of total variance = \frac{某一變異數成分}{所有變異數成分總和} \times 100 %$

這個百分比可以協助研究者比較不同誤差來源的相對影響力。例如：

若「評分者」的變異數成分佔比很高，表示分數很容易受到評分者嚴格或寬鬆程度的影響，未來可能需要加強評分者訓練或使用更多評分者。
若「題目」的變異數成分佔比很高，表示不同題目的難易度差異明顯，未來可能需要重新檢視題目設計。
若「受試者 × 題目」的交互作用變異很高，表示受試者在不同題目上的相對表現不穩定，可能需要增加題目數以提高測量穩定性。

因此，變異數成分的百分比能將抽象的變異數估計轉換為較直觀的資訊，使研究者能判斷哪些測量層面是主要誤差來源，並據此調整後續的測量設計。

二、D 研究（D-Study）中計算的指標與意義

D 研究的目的，是運用 G 研究所估計出的變異數成分，模擬不同測量設計下的信度與測量誤差。研究者可以在不重新收集資料的情況下，預測若改變評分者人數、題目數、測量次數等條件，測量結果的穩定性與精確度會如何改變。

例如，研究者可以比較以下不同設計：

使用 $2$ 位評分者與 $5$ 道題目；
使用 $3$ 位評分者與 $10$ 道題目；
使用 $1$ 位評分者但增加題目數；
使用較少題目但增加測量次數。

D 研究的核心，是將 G 研究中的變異數成分依照預定的測量設計進行調整。例如，若未來測量設計中使用 $n_{r}$ 位評分者、 $n_{i}$ 道題目，則與評分者或題目相關的誤差變異數會依據這些樣本數進行縮減。一般而言，增加評分者、題目或測量次數，會降低相對應的誤差變異數，進而提高信度係數。

在 D 研究中，主要計算的指標包括：

相對誤差變異數
絕對誤差變異數
概化係數
可靠度係數或依賴性係數
測量標準誤
在效標參照決策下使用的切截分數特定係數

誤差變異數（Error Variances）在 D 研究中

D 研究中的誤差變異數會依照決策目的分為兩類：相對誤差變異數與絕對誤差變異數。兩者的差異在於是否將測量層面的主效應納入誤差來源。

若研究者關心的是受試者之間的相對排序，則應使用相對誤差變異數；若研究者關心的是受試者是否達到某個固定標準，則應使用絕對誤差變異數。

相對誤差變異數（Relative error variance，記為 $σ_{δ}^{2}$ 或 $σ_{rel}^{2}$ ）

相對誤差變異數用於相對性決策（relative decisions）或常模參照決策（norm-referenced decisions）的情境。這類決策關心的是受試者之間的相對位置或排名，而不是受試者的絕對分數水準。

例如：

選出表現最好的前 $10 %$ 學生；
淘汰排名最後的 $5 %$ 員工；
比較不同受試者之間的能力高低；
建立受試者表現的相對排序。

在計算相對誤差變異數時，只納入與測量對象產生交互作用的誤差變異，例如受試者與評分者、受試者與題目、受試者與測量時間之間的交互作用。這些交互作用會影響受試者之間的相對排序，因此會被視為相對決策中的誤差來源。

相對誤差變異數通常不納入測量層面的主效應，例如評分者主效應或題目主效應。原因是，在相對性決策中，若某位評分者整體上比較嚴格，或某些題目整體上比較困難，這些影響會作用在所有受試者身上。只要所有受試者受到的影響方向相同，彼此之間的相對排序通常不會改變。因此，這類主效應不會被納入相對誤差變異數。

相對誤差變異數會用來計算概化係數（generalizability coefficient），通常記為 $E ρ^{2}$ 。

絕對誤差變異數（Absolute error variance，記為 $σ_{Δ}^{2}$ 或 $σ_{abs}^{2}$ ）

絕對誤差變異數用於絕對性決策（absolute decisions）或效標參照決策（criterion-referenced decisions）的情境。這類決策關心的是受試者的分數是否達到某個固定標準，而不是受試者與其他人相比的相對位置。

例如：

判斷受試者是否達到 $60$ 分的及格門檻；
判斷學生是否達到精熟標準；
評估實習醫師是否達到可被認證的能力水準；
判斷某位受試者是否具備某項臨床能力。

在計算絕對誤差變異數時，必須納入所有會影響受試者絕對分數判斷的誤差來源。這些來源不僅包括測量對象與各層面之間的交互作用，也包括各測量層面的主效應。

之所以需要納入主效應，是因為在絕對性決策中，受試者的分數會被拿來與固定標準進行比較。若某位評分者特別嚴格、某些題目特別困難，或某個測量時間點的整體表現偏低，這些主效應都可能直接影響受試者是否通過標準。因此，這些系統性差異即使不影響受試者之間的排名，也會影響受試者的絕對分數判斷，必須計入絕對誤差變異數。

絕對誤差變異數會用來計算可靠度係數或依賴性係數（dependability coefficient），通常記為 $Φ$ 。

coefficient of criterion-referenced measurement

在效標參照測量中，若研究者關心的是受試者是否能被正確分類為通過或未通過某個標準，則可以使用與特定切截分數相關的可靠度係數。這類係數可視為絕對性決策下的進階應用，常與 cut-score specific dependability coefficient、Livingston coefficient，以及 Brennan-Kane 指標等概念相關。

當測量目的在於根據特定切截分數 $C$ 將受試者分類時，例如判斷是否達到 $60$ 分及格標準，研究者關心的不只是分數本身的精確度，而是觀察分數能否正確反映受試者的母群分數位於切截分數之上或之下。

這類係數通常會在公式中納入以下三個元素：

母群分數變異數，例如 $σ_{τ}^{2}$ 或 $σ_{p}^{2}$ ；
絕對誤差變異數，例如 $σ_{Δ}^{2}$ ；
母群平均數與切截分數之間的距離平方，例如 $(\bar{Y} - C)^{2}$ 。

其中， $(\bar{Y} - C)^{2}$ 可視為一種偏差校正項或切截分數距離項。其意義是：當整體平均數 $\bar{Y}$ 與切截分數 $C$ 距離越遠時，受試者因測量誤差而被錯誤分類的可能性通常越低，因此估計出的分類可靠度會較高。

相反地，若切截分數 $C$ 接近整體平均數 $\bar{Y}$ ，則許多受試者的分數可能集中在通過與未通過的邊界附近。此時，即使測量誤差不大，也可能導致較高的錯誤分類風險，因此分類決策的可靠度會較低。

只有在切截分數 $C$ 等於整體平均數 $\bar{Y}$ 的特殊情況下，這類切截分數特定的效標參照係數才會等同於一般的全域絕對可靠度係數 $Φ$ 。

因此，coefficient of criterion-referenced measurement 的實務意義在於評估：在特定切截點下，例如 $60$ 分及格，測量結果所形成的通過或未通過分類有多可靠。

信度係數（Reliability-like Coefficients）類似於古典測驗理論的信度，但 D 研究提供兩種係數來對應不同的決策目的：

在 D 研究中，信度係數的概念與古典測驗理論（classical test theory, CTT）中的信度相似，都是在描述觀察分數中有多少比例可歸因於受試者之間真實差異，而非測量誤差。不過，概化理論更進一步區分不同決策目的，因此提供了兩種主要的信度類係數：概化係數與可靠度係數。

母群分數變異數（universe score variance，通常記為 $σ^{2} (τ)$ 或 $σ_{p}^{2}$ ）在概化理論中扮演類似於 CTT 中真實分數變異數（true score variance）的角色。母群分數是指一位受試者在所有可允許測量條件下的期望平均分數，因此母群分數變異數反映的是受試者之間真實存在的能力差異，也就是測量中真正關心的訊號。

無論是相對性決策或絕對性決策，母群分數變異數都會作為信度係數公式中的分子。其基本邏輯為：

$信度類係數 = \frac{母群分數變異數}{母群分數變異數 + 誤差變異數}$

因此，當母群分數變異數越大，或誤差變異數越小時，信度係數就會越高。換言之，若測量工具能穩定區分受試者之間的真實能力差異，且測量誤差相對較小，則該測量設計會具有較高的信度。

概化係數（Generalizability coefficient，簡稱 G-coefficient，通常記為 $E ρ^{2}$ ）：
概化係數用於相對性決策，其計算方式為母群分數變異數除以母群分數變異數與相對誤差變異數之和：

$E ρ^{2} = \frac{σ_{τ}^{2}}{σ_{τ}^{2} + σ_{δ}^{2}}$

其意義是評估測量工具在區分受試者相對高低順序時的穩定性與可靠性。若 $E ρ^{2}$ 較高，表示受試者的排名或相對位置較不容易受到測量誤差影響。
可靠度係數 / 依賴性係數（Dependability coefficient，簡稱 D-coefficient，通常記為 $Φ$ ）：
可靠度係數用於絕對性決策，其計算方式為母群分數變異數除以母群分數變異數與絕對誤差變異數之和：

$Φ = \frac{σ_{τ}^{2}}{σ_{τ}^{2} + σ_{Δ}^{2}}$

其意義是評估測量工具在反映受試者絕對表現水準時的可靠性。若 $Φ$ 較高，表示受試者的觀察分數較能準確反映其絕對能力水準，適合用於及格、認證、精熟判斷等情境。

測量標準誤（Standard Error of Measurement, SEM）

測量標準誤是將誤差變異數轉換回原始測量分數單位的指標。由於信度係數通常是介於 $0$ 到 $1$ 之間的比例，雖然可以反映整體測量穩定性，但不一定容易讓使用者直接理解誤差的實際大小。因此，SEM 能提供更具體的分數解釋。

SEM 的基本計算方式為將誤差變異數開平方根：

相對決策下的測量標準誤可表示為：

$S E M_{δ} = \sqrt{σ_{δ}^{2}}$
絕對決策下的測量標準誤可表示為：

$S E M_{Δ} = \sqrt{σ_{Δ}^{2}}$

SEM 的意義是指出觀察分數中可能包含多少測量誤差，並以原始分數單位呈現。例如，若測驗分數單位是考試得分，SEM 就可以解釋為受試者觀察分數可能上下波動的分數範圍；若測量的是每分鐘正確閱讀字數，SEM 則可解釋為閱讀流暢度估計值的不確定範圍。

因此，SEM 可用來建立信賴區間或解釋個別分數的精確度。例如，在近似常態分布的假設下，研究者可以用觀察分數加減約 $1$ 個或 $2$ 個 SEM，來描述受試者真實分數可能落入的範圍。

總結來說，G 研究主要計算變異數成分及其佔比，目的在於診斷並量化測量工具中的不同誤差來源；D 研究則運用 G 研究所估計出的變異數成分，計算特定測量設計下的誤差變異數、信度係數與測量標準誤，目的在於預測並優化未來的測量條件。

換言之，G 研究回答的是「測量誤差來自哪裡」；D 研究回答的是「在不同測量設計下，測量結果會有多可靠」。透過 D 研究，研究者可以在成本、時間與測量品質之間取得平衡，例如評估使用 $3$ 位評分者搭配 $10$ 道題目時，信度是否能達到 $0.80$ 以上。

參考文獻

Briesch, A. M., Swaminathan, H., Welsh, M., & Chafouleas, S. M. (2014). Generalizability theory: A practical guide to study design, implementation, and interpretation. Journal of School Psychology, 52(1), 13–35. https://doi.org/10.1016/j.jsp.2013.11.008

Huebner, A., Skar, G. B. U., & Huang, M. (2025). Mixed Model Generalizability Theory: A Case Study and Tutorial [Application/pdf]. 30(1). https://doi.org/10.7275/PARE.2376

Vispoel, W. P., Morris, C. A., & Kilinc, M. (2018). Practical Applications of Generalizability Theory for Designing, Evaluating, and Improving Psychological Assessments. Journal of Personality Assessment, 100(1), 53–67. https://doi.org/10.1080/00223891.2017.1296455

一、G 研究（G-Study）中計算的指標與意義

變異數成分（Variance Components，通常記為 σ2）